Hồi quy logistic là gì? Các nghiên cứu khoa học về Hồi quy logistic
Hồi quy logistic là phương pháp thống kê dự đoán xác suất biến nhị phân dựa trên nhiều biến độc lập, ứng dụng trong y học, khoa học xã hội, kinh tế, và khoa học máy tính. Phương trình log(odds) dựa trên các hệ số β. Phổ biến trong dự đoán nguy cơ bệnh, phân tích khách hàng và tài chính. Lợi thế gồm xử lý tốt phân loại nhị phân và yêu cầu ít tài nguyên, song khó mở rộng đa lớp và không hiệu quả với quan hệ phi tuyến. Hồi quy logistic hỗ trợ quyết định trong nhiều lĩnh vực.
Giới thiệu về Hồi Quy Logistic
Hồi quy logistic là một phương pháp phân tích thống kê thường được sử dụng trong học máy và thống kê để dự đoán xác suất của một biến phụ thuộc nhị phân dựa trên một hay nhiều biến độc lập. Hồi quy logistic thường được áp dụng trong các lĩnh vực như y học, khoa học xã hội, kinh tế học, và khoa học máy tính.
Công Thức Toán Học
Phương trình hồi quy logistic được biểu diễn như sau:
log(odds) = β0 + β1x1 + β2x2 + ... + βnxn
Trong đó:
- odds là tỷ lệ của xác suất xảy ra sự kiện với xác suất không xảy ra sự kiện.
- β0 là hệ số chặn (intercept).
- βi là hệ số hồi quy ứng với biến độc lập xi.
Xác suất (p) của sự kiện xảy ra được tính bằng:
p = 1 / (1 + e-(β0 + β1x1 + ... + βnxn))
Ứng Dụng Thực Tiễn
Hồi quy logistic được sử dụng rộng rãi để giải quyết các bài toán phân loại. Một số ứng dụng phổ biến bao gồm:
- Dự đoán nguy cơ mắc bệnh dựa trên các yếu tố nguy cơ trong y học.
- Phân tích hành vi khách hàng, phân loại khách hàng tiềm năng trong marketing.
- Xác định xác suất vỡ nợ của các khoản cho vay trong tài chính.
Lợi Thế và Hạn Chế
Lợi thế:
- Khả năng xử lý tốt các bài toán phân loại nhị phân.
- Thích hợp cho các tập dữ liệu nhỏ và không yêu cầu nhiều tài nguyên tính toán.
Hạn chế:
- Khó mở rộng cho các bài toán phân loại đa lớp.
- Không hiệu quả nếu tồn tại mối quan hệ phi tuyến tính mạnh giữa biến độc lập và biến phụ thuộc.
Kết Luận
Hồi quy logistic là một công cụ mạnh mẽ và linh hoạt trong việc giải quyết các bài toán phân loại nhị phân. Mặc dù có một số hạn chế nhất định, nhưng với cách áp dụng phù hợp, phương pháp này có thể cung cấp những dự đoán có giá trị và hỗ trợ ra quyết định trong nhiều lĩnh vực khác nhau.
Danh sách công bố khoa học về chủ đề "hồi quy logistic":
Sau khi mô hình hồi quy logistic được ước lượng, cần thực hiện một kiểm định tổng thể về độ vừa vặn của mô hình kết quả. Một kiểm định thường được sử dụng để đánh giá độ vừa vặn của mô hình là kiểm định Hosmer–Lemeshow, có sẵn trong Stata và hầu hết các phần mềm thống kê khác. Tuy nhiên, thường thì người ta quan tâm đến việc ước lượng mô hình hồi quy logistic cho dữ liệu khảo sát mẫu, chẳng hạn như dữ liệu từ Khảo sát Phỏng vấn Sức khỏe Quốc gia hoặc Khảo sát Kiểm tra Sức khỏe và Dinh dưỡng Quốc gia. Thật không may, trong những trường hợp như vậy chưa có quy trình kiểm định độ vừa vặn nào được phát triển hoặc triển khai trong phần mềm hiện có. Để giải quyết vấn đề này, một lệnh ado của Stata, svylogitgof, được phát triển nhằm ước lượng kiểm định trung bình dư F đã hiệu chỉnh sau khi ước lượng svy: logit hoặc svy: logistic, và bài báo này mô tả việc triển khai của nó.
Hồi quy logistic nhị phân là một trong những phương pháp thống kê được áp dụng thường xuyên nhất để phát triển các mô hình dự đoán lâm sàng. Các nhà phát triển của những mô hình này thường dựa vào tiêu chí Sự Kiện Trên Biến (Events Per Variable - EPV), đặc biệt là EPV ≥10, để xác định kích thước mẫu tối thiểu cần thiết và số lượng biến dự đoán ứng viên tối đa có thể được kiểm tra. Chúng tôi trình bày một nghiên cứu mô phỏng rộng rãi trong đó chúng tôi đã nghiên cứu ảnh hưởng của EPV, tỷ lệ sự kiện, số lượng biến dự đoán ứng viên, tương quan và phân phối của các biến dự đoán ứng viên, diện tích dưới đường cong ROC và hiệu ứng của biến dự đoán đối với hiệu suất dự đoán ngoài mẫu của các mô hình dự đoán. Hiệu suất ngoài mẫu (chuẩn hóa, phân biệt và sai số dự đoán xác suất) của các mô hình dự đoán đã phát triển được nghiên cứu trước và sau khi thu nhỏ hồi quy và chọn biến. Kết quả cho thấy rằng EPV không có mối quan hệ mạnh với các chỉ số hiệu suất dự đoán và không phải là tiêu chí phù hợp cho các nghiên cứu phát triển mô hình dự đoán (nhị phân). Chúng tôi chỉ ra rằng hiệu suất dự đoán ngoài mẫu có thể được xấp xỉ tốt hơn bằng cách xem xét số lượng biến dự đoán, kích thước mẫu tổng thể và tỷ lệ sự kiện. Chúng tôi đề xuất rằng việc phát triển các tiêu chí kích thước mẫu mới cho các mô hình dự đoán nên dựa trên ba tham số này và cung cấp các gợi ý để cải thiện việc xác định kích thước mẫu.
Phân tích tổng hợp độ chính xác của các bài kiểm tra chẩn đoán gặp nhiều thách thức. Ngay cả trong trường hợp đơn giản nhất, khi dữ liệu được tóm tắt bằng bảng 2 x 2 từ mỗi nghiên cứu, một phân tích thống kê nghiêm ngặt yêu cầu các mô hình phân cấp (đa cấp) tôn trọng cấu trúc dữ liệu nhị phân, chẳng hạn như hồi quy logistic phân cấp. Chúng tôi giới thiệu một gói Stata, metandi, để hỗ trợ việc điều chỉnh các mô hình này trong Stata. Các lệnh hiển thị kết quả theo hai tham số hóa thay thế và tạo ra một biểu đồ có thể tùy chỉnh. metandi yêu cầu Stata 10 trở lên (có lệnh mới xtmelogit), hoặc Stata 8.2 trở lên với gllamm đã được cài đặt.
Nuốt khó vùng họng (OD) có ảnh hưởng lớn đến sức khỏe nói chung và chất lượng cuộc sống liên quan đến sức khỏe (HR-QoL) nói riêng. Các đánh giá chuẩn vàng cho OD, đặc biệt là đối với tình trạng hút vào phổi trong OD, là phương pháp đánh giá nuốt bằng nội soi qua sợi quang (FEES) và video hình thức nuốt (VFSS), nhưng không phải tất cả bệnh nhân đều có cơ hội tiếp cận những phương pháp này. Do đó, nghiên cứu hiện tại đã xây dựng một mô hình dự đoán để dự báo tình trạng hút vào phổi ở bệnh nhân mắc OD dựa trên các bảng câu hỏi tự đánh giá phổ biến và tình trạng ăn uống miệng.
Giữ nước tiểu sau sinh (PUR) có thể dẫn đến tổn thương cơ neuromuscular bàng quang và sau đó là rối loạn tiểu tiện. Tuy nhiên, tài liệu về tỷ lệ mắc và các yếu tố nguy cơ của PUR vẫn chưa rõ ràng. Hơn nữa, các nghiên cứu đã được công bố trước đây bị hạn chế về kích thước mẫu nhỏ. Do đó, nghiên cứu này nhằm đánh giá tỷ lệ mắc và các yếu tố nguy cơ của PUR rõ ràng sau khi sinh con qua đường âm đạo.
Nghiên cứu trường hợp - đối chứng hồi cứu này bao gồm tất cả các sản phụ lần đầu sinh qua đường âm đạo từ ngày 1 tháng 7 năm 2017 đến ngày 30 tháng 6 năm 2019 tại cơ sở của chúng tôi. Nhóm bệnh nhân bao gồm 677 phụ nữ được chẩn đoán bị PUR rõ ràng và cần phải đặt ống thông sau khi sinh. Nhóm đối chứng gồm 677 phụ nữ không bị PUR rõ ràng được chọn ngẫu nhiên với tỷ lệ 1:1 phù hợp với ngày sinh và sinh ngay sau mỗi phụ nữ có PUR rõ ràng để giảm thiểu tác động của sự biến đổi theo thời gian trong thực hành sản khoa. Phân tích hồi quy logistic một yếu tố và nhiều yếu tố đã được thực hiện để điều tra các yếu tố liên quan đến PUR rõ ràng.
INTEROCC là một nghiên cứu đoàn hệ được thực hiện tại bảy quốc gia về các phơi nhiễm nghề nghiệp và nguy cơ ung thư não, bao gồm phơi nhiễm nghề nghiệp với các trường điện từ (EMF). Trong sự thiếu hụt dữ liệu về các phơi nhiễm cá nhân, Ma trận Phơi nhiễm Nghề nghiệp (JEM) có thể được sử dụng để xây dựng các kịch bản phơi nhiễm có khả năng xảy ra trong môi trường nghề nghiệp. Công cụ này được xây dựng dựa trên các tóm tắt thống kê về phơi nhiễm EMF cho nhiều loại nghề nghiệp khác nhau đối với một nhóm công nhân tương đương.
Trong nghiên cứu này, chúng tôi sử dụng dữ liệu từ Canada trong INTEROCC để xác định ước lượng/phương pháp thay thế phơi nhiễm EMF tốt nhất từ ba phương pháp thay thế được lựa chọn phù hợp từ JEM, cùng với một phương pháp thay thế thứ tư dựa trên điều chỉnh lỗi Berkson, thu được thông qua xấp xỉ số học của hàm khả năng. Trong bài viết này, chúng tôi xem xét trường hợp mà các phơi nhiễm được phân phối gamma cho mỗi nghề nghiệp trong JEM, như một sự thay thế cho phân phối phơi nhiễm log-normal được xem xét trong một nghiên cứu trước đó do nhóm nghiên cứu của chúng tôi thực hiện. Chúng tôi cũng nghiên cứu việc sử dụng những phương pháp thay thế này và điều chỉnh lỗi Berkson trong hồi quy Poisson và hồi quy logistic có điều kiện.
Các mô phỏng cho thấy rằng các phương pháp điều chỉnh lỗi Berkson được giới thiệu cho các phân tích không phân loại cung cấp ước lượng chính xác về nguy cơ phát triển khối u trong trường hợp mô hình phơi nhiễm gamma. Ngược lại, và dưới một số giả định kỹ thuật, trung bình cộng là phương pháp thay thế tốt nhất khi mô hình phân phối gamma được sử dụng làm mô hình phơi nhiễm. Các mô phỏng cũng cho thấy không có phương pháp hiện tại nào có thể cung cấp một ước lượng chính xác về nguy cơ trong trường hợp phân tích có phân loại.
Mặc dù nghiên cứu trước của chúng tôi đã phát hiện ra rằng trung bình hình học là phương pháp thay thế phơi nhiễm tốt nhất, nghiên cứu hiện tại cho thấy phương pháp thay thế tốt nhất phụ thuộc vào mô hình phơi nhiễm; trung bình cộng trong trường hợp mô hình phơi nhiễm gamma và trung bình hình học trong trường hợp mô hình phơi nhiễm log-normal. Tuy nhiên, chúng tôi có thể cung cấp một phương pháp điều chỉnh lỗi Berkson tốt hơn cho mỗi trong hai mô hình phơi nhiễm. Kết quả của chúng tôi cung cấp hướng dẫn hữu ích về việc áp dụng JEM cho các đánh giá phơi nhiễm nghề nghiệp, với điều chỉnh cho lỗi Berkson.
- 1
- 2
- 3
- 4
- 5
- 6
- 10